[レポート]［PwCコンサルティング合同会社］AIレッドチーム：生成AIサービスにおけるセキュリティリスクに対する取り組み - CODE BLUE 2024 #codeblue_jp

CODE BLUE 2024で行われた「［PwCコンサルティング合同会社］AIレッドチーム：生成AIサービスにおけるセキュリティリスクに対する取り組み」というセッションのレポートです。

2024.11.14

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、AWS事業本部@福岡オフィスのべこみん(@beco_minn)です。
今回はCODE BLUE 2024で行われた以下のセッションのレポートです。
［PwCコンサルティング合同会社］AIレッドチーム： 生成AIサービスにおけるセキュリティリスクに対する取り組み
近年の自然言語による生成AIサービスの台頭により、AIの利用用途が専門的なタスクだけではなく身近なタスクにも波及している。それに伴い、AIのビジネス活用も急速に広がっており、誤った情報を元として生成するハルシネーションなど生成AI特有のリスクへの対処が迫られている。 本講演では、生成AIにおけるセキュリティリスクについてデモを用いて解説し、脆弱性やビジネスリスクを特定するための活動であるAIレッドチームについて紹介する。
Speakers:

Naohide Waguri(和栗 直英) シニアマネージャー

Barry O’callaghan(オカラハン バリー) シニアマネージャー
 レポートPwCコンサルティング合同会社のAIレッドチームの取り組み
AIは専門職が使っていたが、最近は幅広い職の人が使うようになっている。
AIの3つのリスク
技術的
法的
倫理的
具体的なAIのリスク
自動運転でのリスク
医療でのリスク
物品購入やWeb閲覧など、パーソナライズ化された情報へのリスク
セキュリティ上の課題
悪意のあるデータの学習
AIを活用したマルウェアの作成
フィッシングメールの高度化（文面に違和感がなくなる）
プロンプトインジェクション
AIの利用者に対して被害が出る
AIサービスを提供する企業にも訴訟リスクなどが発生
AIレッドチームについて
軍事訓練やサイバー訓練などの戦略の一つ
LLMやAIのモデルの堅牢性や公平性などのリスクをテストする
AIサービスは新しいものだがセキュリティ上完璧ではない
レッドチームでテストや評価をすることでサービスのセキュリティを強化していく
LLMはAIの技術の1つでしかないが、非常に強力なもの
ただ、悪用可能な弱点も比較的よく知られている
AIレッドチームのやることは今までのレッドチームとやることの流れは変わらない
上述の3つのリスクのどのスコープについて見るのかを決める
情報収集
攻撃の計画
異常な入力などのシナリオを考える

攻撃の実行
結果の分析、レポート
プロンプトインジェクションについて
無害に見えるプロンプトの中に悪意のあるメッセージを混入させる
結果、LLMは悪意のあるメッセージに応答してしまう
基本的なプロンプトインジェクションの流れ
不正な動きになってしまう入力を考える
自然言語ではない特殊な文字を使う
既知のLLM解析メカニズムを悪用
外部リソースにアクセスするようなサービスの場合、その外部リソースそのものに細工をする

プロンプトインジェクションのデモ
PwCのレッドチームが作ったチャットボット
レッドチームの注文を追跡するようなもの
LLMは受け取った自然言語をもとにデータベースにクエリして、結果をユーザーに返す
アプリにログインすると、ユーザーIDに紐づいたトランザクションと注文のみを表示できるような仕組み
ただ、チャットボットにUserIDのカラムやデータベースの構造を聞くと、答えてくれる
プロンプトインジェクションについての知識も聞いてみる
自分のものとは異なるユーザーIDの情報を表示するようなプロンプトインジェクションを実行すると成功
プロンプトインジェクションへの対策
サニタイズ
プロンプトエンジニアリング
AIの役割、制限を設ける
特定の出力を避けるようなトレーニングをAIにさせる

アクセス制限
ユーザー認証

モニタリングと監査
対策というより、対策を行うためにモニタリングは必要
ユーザーインタラクションのログとAIの応答ログを記録しておくこと

敵対的なトレーニング
敵対的なプロンプトでトレーニングすることで、悪意のあるプロンプトへの耐性を上げる

まとめ
AIに対する攻撃は日々高度化しているし、AIサービスも増えている
今回紹介した以外にも、バックドア攻撃やモデルの盗用などといった攻撃もある
AIレッドチームとしても、今後のAIを使ってAIの脆弱性を特定するといった使い方の発展を望んでいる
戦略的なセキュリティ評価として、レッドチームのような取り組みは有効な対策になると考えている
今回紹介したレッドチームのガイドラインなどを公開することで、業界全体のベースラインの底上げになると考えている
 質疑応答AIレッドチームのサービス展開はしているか？展開している場合、話せる事例などあるか？
PwCはAIレッドチームのサービスは顧客に展開している
ただ社内外問わず、現在社外に話せる事例などは無い

AIモデルの認証と認可に関する対策はあるか？どのようなものか？
多くのホワイトリスト、一部のブラックリストを用いて行なっている

 感想AI専門のレッドチームの話ということで、非常に興味深い話でした。
今回はプロンプトインジェクションにフォーカスを当てた話でしたが、実際にレッドチームとしてAIサービスを評価する際に3つのリスクのいずれかからスコープを決めて行うという話は勉強になりました。

デモはPwCレッドチーム製のチャットボットを使った簡単なものでしたが、サニタイズなどプロンプトインジェクションへの対策を行なっていないと簡単に個人的な情報が抜かれてしまうという分かりやすいもので良かったです。
質疑応答の中で現在はまだ具体的に話せる事例が無いとのことでしたので、今後どこかでそのようなお話も聞けることを心待ちにしています。
以上、べこみんでした。

[レポート]［PwCコンサルティング合同会社］AIレッドチーム：生成AIサービスにおけるセキュリティリスクに対する取り組み - CODE BLUE 2024 #codeblue_jp

レポート

質疑応答

感想

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS